在今天的文章中我們會使用詞正確率
來評估模型的效能,詞正確率是由詞錯誤率(Word Error Rate, WER)
轉換後得到。為 了計算詞錯誤率,我們將預測出的結果以及正確的結果計算其取代錯誤(Substitution error, S)
、刪除錯誤(Deletion error, D)
、插入錯誤(Insertion error, I)
的數量,詞錯誤率的計算方式如下:
其中 N 表示正確答案的總詞數,因此詞正確率就等於
我們將語音特徵不經過除噪模型,直接用於辨識得到的結果作為基準(baseline)
。在 Day09 時有提過會對語音特徵做 CMVN 正規化,並使用高斯混合模型(HMM-GMM) 和 CTC 模型作後端的語音辨識。baseline 結果如表 1、表 2,使用 AFE 特徵在乾淨的訓練資料下,HMM-GMM 的詞正確率是83.17%,CTC 模型是84.91%,含有噪音的訓練資料,HMM-GMM 和CTC 模型的詞正確率分別是 91.77% 和 92.71% ;而在 MFCC 特徵方面,在乾淨的訓練資料下,HMM-GMM 的詞正確率是78.32%,CTC 模型是78.31%,含有噪音的訓練資料,HMM-GMM 和 CTC 模型的詞正確率分別是 89.88% 和 90.77%。
語音特徵 | 辨識模型 | 詞正確率
------------- | -------------
AFE | HMM-GMM | 83.17%
AFE | CTC | 84.91%
MFCC | HMM-GMM | 78.32%
MFCC | CTC | 78.31%
表 1: 乾淨的訓練資料 baseline
語音特徵 | 辨識模型 | 詞正確率
------------- | -------------
AFE | HMM-GMM | 91.77%
AFE | CTC | 92.71%
MFCC | HMM-GMM | 89.88%
MFCC | CTC | 90.77%
表 2: 含有噪音的訓練資料 baseline
從結果中可以發現,因為測試資料是含有噪音的,所以使用乾淨的訓練資料訓練的模型詞正確率會比使用含有噪音的訓練資料來得差。
明天會將 baseline 的結果跟加入除噪模型後的結果做比較,了解除噪模型的效能。